Telegram Group & Telegram Channel
Forwarded from AI Pulse (Mohammad)
شرکت متا نسل چهارم از مدل‌های زبانی Llama را معرفی کرده که با توانایی‌های چندوجهی و پشتیبانی از کانتکست بسیار بلند، رقیب بسیار جدی‌ای برای مدل‌های اوپن سورس محسوب میشن.

در این مجموعه سه مدل معرفی شده‌: Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth. دو مدل اول به صورت Open Weight عرضه شدن و برای استفاده در پلتفرم‌هایی مثل WhatsApp، Messenger، Instagram Direct و نسخه وب Meta AI در دسترس قرار گرفتن.

مدل Scout با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص، قوی‌ترین مدل توی کلاس خودش به‌شمار میاد و با وجود توانایی‌های چشمگیر، روی یک GPU از نوع H100 اجرا می‌شه. این مدل با داشتن پنجره کانتکست ۱۰ میلیون توکنی، عملکردی بهتر از مدل‌هایی مثل Gemma 3 و Gemini 2.0 Flash-Lite ارائه می‌ده.

مدل Maverick هم که از همون تعداد پارامتر فعال اما با ۱۲۸ متخصص بهره می‌بره، در تست‌های گسترده از GPT-4o و Gemini 2.0 پیشی گرفته و با مدل‌هایی مثل DeepSeek v3 در زمینه‌های استدلال و کدنویسی رقابت می‌کنه؛ اون هم با نصف تعداد پارامتر فعال.

قدرت این مدل‌ها تا حد زیادی مدیون مدل Behemoth هست؛ یک مدل بزرگ ۲ تریلیونی با ۲۸۸ میلیارد پارامتر فعال که نقش "معلم" رو در فرایند آموزش ایفا کرده. Behemoth در بنچمارک‌های ریاضی، کدنویسی و زبان‌های مختلف عملکردی بهتر از مدل‌های شاخصی مثل GPT-4.5، Claude 3.7 و Gemini 2.0 Pro داشته. هرچند هنوز به‌طور کامل عرضه نشده، اما متا وعده داده به‌زودی اطلاعات بیشتری درباره‌ی اون منتشر کنه.

در طراحی این مدل‌ها، معماری Mixture of Experts به‌کار گرفته شده که با فعال‌سازی بخشی از پارامترها به‌ازای هر توکن، هم بازدهی محاسباتی رو افزایش داده و هم کیفیت مدل رو نسبت به مدل‌های متراکم بهبود داده. Llama 4 همچنین به‌صورت چندوجهی طراحی شده و می‌تونه همزمان ورودی‌های متنی و تصویری رو پردازش کنه. در فاز آموزش، از داده‌های متنی، تصویری و ویدیویی در مقیاس بالا استفاده شده و تکنیک‌های جدیدی مثل MetaP برای بهینه‌سازی هایپرپارامترها به‌کار رفته.

در مرحله پس‌آموزش، متا از روش‌های جدیدی مثل یادگیری تقویتی آنلاین و بهینه‌سازی مستقیم ترجیحی برای بهبود مهارت‌های مدل در استدلال، مکالمه و چندوجهی‌بودن استفاده کرده.

مدل Maverick با بهره‌گیری از این روش‌ها، عملکرد چشمگیری در درک تصویر، تولید متن، پاسخ به پرسش‌های بصری و وظایف پیچیده نشون داده. مدل Scout هم با وجود حجم کمتر، در زمینه‌هایی مثل کدنویسی، پردازش کانتکست بلند، و درک تصویری، نتایجی بهتر از تمام نسل‌های قبلی Llama ارائه می‌ده.

در نهایت، متا تأکید کرده که این مدل‌ها با بالاترین استانداردهای ایمنی توسعه داده شدن. ابزارهایی مثل Llama Guard، Prompt Guard و سامانه‌ی تست GOAT برای جلوگیری از خروجی‌های نامناسب یا سؤاستفاده از مدل‌ها ارائه شده و توسعه‌دهندگان می‌تونن این ابزارها رو متناسب با نیاز خودشون تنظیم کنن. همچنین تلاش‌هایی هم برای کاهش سوگیری‌های سیاسی و اجتماعی در پاسخ‌های مدل صورت گرفته تا Llama 4 بتونه دیدگاه‌های مختلف رو به‌درستی درک و بیان کنه.

@aipulse24



tg-me.com/learning_with_m/148
Create:
Last Update:

شرکت متا نسل چهارم از مدل‌های زبانی Llama را معرفی کرده که با توانایی‌های چندوجهی و پشتیبانی از کانتکست بسیار بلند، رقیب بسیار جدی‌ای برای مدل‌های اوپن سورس محسوب میشن.

در این مجموعه سه مدل معرفی شده‌: Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth. دو مدل اول به صورت Open Weight عرضه شدن و برای استفاده در پلتفرم‌هایی مثل WhatsApp، Messenger، Instagram Direct و نسخه وب Meta AI در دسترس قرار گرفتن.

مدل Scout با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص، قوی‌ترین مدل توی کلاس خودش به‌شمار میاد و با وجود توانایی‌های چشمگیر، روی یک GPU از نوع H100 اجرا می‌شه. این مدل با داشتن پنجره کانتکست ۱۰ میلیون توکنی، عملکردی بهتر از مدل‌هایی مثل Gemma 3 و Gemini 2.0 Flash-Lite ارائه می‌ده.

مدل Maverick هم که از همون تعداد پارامتر فعال اما با ۱۲۸ متخصص بهره می‌بره، در تست‌های گسترده از GPT-4o و Gemini 2.0 پیشی گرفته و با مدل‌هایی مثل DeepSeek v3 در زمینه‌های استدلال و کدنویسی رقابت می‌کنه؛ اون هم با نصف تعداد پارامتر فعال.

قدرت این مدل‌ها تا حد زیادی مدیون مدل Behemoth هست؛ یک مدل بزرگ ۲ تریلیونی با ۲۸۸ میلیارد پارامتر فعال که نقش "معلم" رو در فرایند آموزش ایفا کرده. Behemoth در بنچمارک‌های ریاضی، کدنویسی و زبان‌های مختلف عملکردی بهتر از مدل‌های شاخصی مثل GPT-4.5، Claude 3.7 و Gemini 2.0 Pro داشته. هرچند هنوز به‌طور کامل عرضه نشده، اما متا وعده داده به‌زودی اطلاعات بیشتری درباره‌ی اون منتشر کنه.

در طراحی این مدل‌ها، معماری Mixture of Experts به‌کار گرفته شده که با فعال‌سازی بخشی از پارامترها به‌ازای هر توکن، هم بازدهی محاسباتی رو افزایش داده و هم کیفیت مدل رو نسبت به مدل‌های متراکم بهبود داده. Llama 4 همچنین به‌صورت چندوجهی طراحی شده و می‌تونه همزمان ورودی‌های متنی و تصویری رو پردازش کنه. در فاز آموزش، از داده‌های متنی، تصویری و ویدیویی در مقیاس بالا استفاده شده و تکنیک‌های جدیدی مثل MetaP برای بهینه‌سازی هایپرپارامترها به‌کار رفته.

در مرحله پس‌آموزش، متا از روش‌های جدیدی مثل یادگیری تقویتی آنلاین و بهینه‌سازی مستقیم ترجیحی برای بهبود مهارت‌های مدل در استدلال، مکالمه و چندوجهی‌بودن استفاده کرده.

مدل Maverick با بهره‌گیری از این روش‌ها، عملکرد چشمگیری در درک تصویر، تولید متن، پاسخ به پرسش‌های بصری و وظایف پیچیده نشون داده. مدل Scout هم با وجود حجم کمتر، در زمینه‌هایی مثل کدنویسی، پردازش کانتکست بلند، و درک تصویری، نتایجی بهتر از تمام نسل‌های قبلی Llama ارائه می‌ده.

در نهایت، متا تأکید کرده که این مدل‌ها با بالاترین استانداردهای ایمنی توسعه داده شدن. ابزارهایی مثل Llama Guard، Prompt Guard و سامانه‌ی تست GOAT برای جلوگیری از خروجی‌های نامناسب یا سؤاستفاده از مدل‌ها ارائه شده و توسعه‌دهندگان می‌تونن این ابزارها رو متناسب با نیاز خودشون تنظیم کنن. همچنین تلاش‌هایی هم برای کاهش سوگیری‌های سیاسی و اجتماعی در پاسخ‌های مدل صورت گرفته تا Llama 4 بتونه دیدگاه‌های مختلف رو به‌درستی درک و بیان کنه.

@aipulse24

BY Learning With M







Share with your friend now:
tg-me.com/learning_with_m/148

View MORE
Open in Telegram


Learning With M Telegram | DID YOU KNOW?

Date: |

Telegram has exploded as a hub for cybercriminals looking to buy, sell and share stolen data and hacking tools, new research shows, as the messaging app emerges as an alternative to the dark web.An investigation by cyber intelligence group Cyberint, together with the Financial Times, found a ballooning network of hackers sharing data leaks on the popular messaging platform, sometimes in channels with tens of thousands of subscribers, lured by its ease of use and light-touch moderation.

What is Secret Chats of Telegram

Secret Chats are one of the service’s additional security features; it allows messages to be sent with client-to-client encryption. This setup means that, unlike regular messages, these secret messages can only be accessed from the device’s that initiated and accepted the chat. Additionally, Telegram notes that secret chats leave no trace on the company’s services and offer a self-destruct timer.

Learning With M from ms


Telegram Learning With M
FROM USA